Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved the new record 65.4 mAP on COCO test-dev. The code will be released at https://github.com/OpenGVLab/InternImage.
translated by 谷歌翻译
视觉世界自然地展现了一个长尾的开放类分布,这对现代视觉系统带来了巨大挑战。现有方法可以执行类重新平衡策略或直接改进网络模块以解决问题。然而,他们仍然用有限一套预定义标签训练模型,限制了他们的监督信息并限制了他们对新颖实例的可转移性。新途径上的大型对比视觉普瑞宁普雷宁闪光灯的最新进展,可视识别。利用开放词汇监督,预先染色的对比视觉语言模型学习强大的多模式表示,这是对处理数据缺陷和看不见的概念。通过计算视觉和文本输入之间的语义相似性,可视识别被转换为vision语言匹配问题。灵感来自于此,我们提出了民谣,利用了对比尾识别的对比视觉模型。我们首先通过对特定的长尾目标数据集进行对比学习继续预先预留视觉语言骨干。之后,我们冻结了骨干,进一步采用了额外的适配器层,以增强通过重新采样策略构建的平衡训练样本上的尾级课程的表示。已经在三个流行的长尾识别基准测试中进行了广泛的实验。因此,我们简单有效的方法设定了新的最先进的表演,优于具有大边距的竞争基础。代码在https://github.com/gaopengcuhk/ballad发布。
translated by 谷歌翻译
协作本地化是一支机器人团队的基本能力,例如连通的车辆与依赖合作的多个角度协作估计对象位置。为了实现协作本地化,必须解决四个关键挑战,包括在观察到的对象之间建模复杂关系,从任意数量的协作机器人,量化定位不确定性以及解决机器人通信的延迟来建立复杂的观察。在本文中,我们介绍了一种新的方法,它集成了不确定性感知的时空图学习和基于模型的状态估计,以使机器人团队协作定位对象。具体而言,我们介绍了一种新的不确定感知图形学习模型,用于了解时空图,以表示每个机器人随时间观察到的对象的历史运动,并在对象本地化中提供不确定性。此外,我们提出了一种新颖的基于综合学习和模型的状态估计方法,其融合了从任意数量的机器人获得的异步观察以进行协作本地化。我们在模拟和实际机器人的两个协作对象本地化方案中评估了我们的方法。实验结果表明,我们的方法优于以前的方法,并实现了异步协作本地化的最先进的性能。
translated by 谷歌翻译
Although DETR-based 3D detectors can simplify the detection pipeline and achieve direct sparse predictions, their performance still lags behind dense detectors with post-processing for 3D object detection from point clouds. DETRs usually adopt a larger number of queries than GTs (e.g., 300 queries v.s. 40 objects in Waymo) in a scene, which inevitably incur many false positives during inference. In this paper, we propose a simple yet effective sparse 3D detector, named Query Contrast Voxel-DETR (ConQueR), to eliminate the challenging false positives, and achieve more accurate and sparser predictions. We observe that most false positives are highly overlapping in local regions, caused by the lack of explicit supervision to discriminate locally similar queries. We thus propose a Query Contrast mechanism to explicitly enhance queries towards their best-matched GTs over all unmatched query predictions. This is achieved by the construction of positive and negative GT-query pairs for each GT, and a contrastive loss to enhance positive GT-query pairs against negative ones based on feature similarities. ConQueR closes the gap of sparse and dense 3D detectors, and reduces up to ~60% false positives. Our single-frame ConQueR achieves new state-of-the-art (sota) 71.6 mAPH/L2 on the challenging Waymo Open Dataset validation set, outperforming previous sota methods (e.g., PV-RCNN++) by over 2.0 mAPH/L2.
translated by 谷歌翻译
Pre-training by numerous image data has become de-facto for robust 2D representations. In contrast, due to the expensive data acquisition and annotation, a paucity of large-scale 3D datasets severely hinders the learning for high-quality 3D features. In this paper, we propose an alternative to obtain superior 3D representations from 2D pre-trained models via Image-to-Point Masked Autoencoders, named as I2P-MAE. By self-supervised pre-training, we leverage the well learned 2D knowledge to guide 3D masked autoencoding, which reconstructs the masked point tokens with an encoder-decoder architecture. Specifically, we first utilize off-the-shelf 2D models to extract the multi-view visual features of the input point cloud, and then conduct two types of image-to-point learning schemes on top. For one, we introduce a 2D-guided masking strategy that maintains semantically important point tokens to be visible for the encoder. Compared to random masking, the network can better concentrate on significant 3D structures and recover the masked tokens from key spatial cues. For another, we enforce these visible tokens to reconstruct the corresponding multi-view 2D features after the decoder. This enables the network to effectively inherit high-level 2D semantics learned from rich image data for discriminative 3D modeling. Aided by our image-to-point pre-training, the frozen I2P-MAE, without any fine-tuning, achieves 93.4% accuracy for linear SVM on ModelNet40, competitive to the fully trained results of existing methods. By further fine-tuning on on ScanObjectNN's hardest split, I2P-MAE attains the state-of-the-art 90.11% accuracy, +3.68% to the second-best, demonstrating superior transferable capacity. Code will be available at https://github.com/ZrrSkywalker/I2P-MAE.
translated by 谷歌翻译
我们提出了EasyRec,这是一个易于使用,可扩展和高效的推荐框架,用于构建工业推荐系统。我们的EasyRec框架在以下方面是优越的:首先,EasyRec采用模块化和可插入的设计模式来减少建立定制模型的努力;其次,EasyRec实现了超参数优化和特征选择算法,以自动提高模型性能;第三,EasyRec应用在线学习,以快速适应不断变化的数据分布。该代码发布:https://github.com/alibaba/easyrec。
translated by 谷歌翻译
很少有射击分类需要深层神经网络才能仅从有限的培训图像中学习广义表示,这在低数据制度中很有挑战,但很重要。最近,基于剪辑的方法显示出有希望的很少的射击性能受益于对比的语言图像预训练。基于这一点,我们质疑大规模的预训练是否可以减轻少数数据的缺陷,并通过预测的知识帮助代表性学习。在本文中,我们提出了Como,这是对预培训模型的合作,该模型结合了来自各种培训范式的各种先验知识,以获得更好的几次学习。我们的科莫包括:剪辑的语言对比知识,迪诺的视力对抗性知识以及达尔 - E的语言基础知识。具体而言,科莫在两个方面工作:很少的数据扩展和多样化的知识合奏。首先,我们通过零摄影dall-e生成合成图像,以丰富少量训练数据,而无需任何人力。另一方面,我们引入了一个可学习的多知识适配器(MK-apapter),以适应剪辑和恐龙的预测。通过这种合作,COMO可以完全释放不同的预训练方法的潜力,并将其统一以进行几次分类。我们在11个数据集上进行了广泛的实验,以证明我们方法的优势和概括能力。
translated by 谷歌翻译
我们解决了从一般标记(例如电影海报)估计对应关系到捕获这种标记的图像的问题。通常,通过拟合基于稀疏特征匹配的同型模型来解决此问题。但是,他们只能处理类似平面的标记,而稀疏功能不能充分利用外观信息。在本文中,我们提出了一个新颖的框架神经标记器,训练神经网络估计在各种具有挑战性的条件下(例如标记变形,严格的照明等)估算密集标记的对应关系。此外,我们还提出了一种新颖的标记通信评估方法,对真实标记的注释进行了注释。 - 图像对并创建一个新的基准测试。我们表明,神经标记的表现明显优于以前的方法,并实现了新的有趣应用程序,包括增强现实(AR)和视频编辑。
translated by 谷歌翻译
磁共振指纹(MRF)是一种新型技术,它同时估算了多个与组织相关的参数,例如纵向松弛时间T1,横向松弛时间T2,离子频率B0和质子密度,从仅在二十秒内的扫描对象, 。但是,MRF方法遭受混乱的伪像,因为它明显地示例了K空间数据。在这项工作中,我们提出了一个基于MRF方法同时估算多个组织相关参数的压缩传感(CS)框架。它比低采样比更健壮,因此在估计对象所有体素的MR参数方面更有效。此外,MRF方法需要从具有L2距离的MR-Signal-Evolution词典中鉴定出最接近的查询指纹原子。但是,我们观察到L2距离并不总是是测量MR指纹之间相似性的合适度量。从不足采样的训练数据中自适应地学习距离度量,可以显着提高查询指纹的匹配精度。广泛的模拟案例的数值结果表明,就参数估计的准确性而言,我们的方法基本上优于先进方法。
translated by 谷歌翻译
数据清洁,体系结构和损失功能设计是导致高性能面部识别的重要因素。以前,研究社区试图提高每个单个方面的性能,但未能在共同搜索所有三个方面的最佳设计时提出统一的解决方案。在本文中,我们首次确定这些方面彼此紧密结合。实际上,优化各个方面的设计实际上极大地限制了性能并偏向算法设计。具体而言,我们发现最佳模型体系结构或损耗函数与数据清洁紧密相结合。为了消除单一研究研究的偏见并提供对面部识别模型设计的总体理解,我们首先仔细设计了每个方面的搜索空间,然后引入了全面的搜索方法,以共同搜索最佳数据清洁,架构和损失功能设计。在我们的框架中,我们通过使用基于创新的增强学习方法来使拟议的全面搜索尽可能灵活。对百万级面部识别基准的广泛实验证明了我们新设计的搜索空间在每个方面和全面搜索的有效性。我们的表现要优于为每个研究轨道开发的专家算法。更重要的是,我们分析了我们搜索的最佳设计与单个因素的独立设计之间的差异。我们指出,强大的模型倾向于通过更困难的培训数据集和损失功能进行优化。我们的实证研究可以为未来的研究提供指导,以实现更健壮的面部识别系统。
translated by 谷歌翻译